今天跟大家分享關機與服務中斷的警報,如果有仔細觀察 Problem: /etc/passwd has been changed 指普通 information 等級。但是服務斷線 or 主機斷線警報會升級警告等級了。
主要介紹以下警報:Zabbix agent is not available (for 3m)、Zabbix server has been restarted (uptime < 10m)、MySQL: Service is down、HTTP service is down。
首先是 Zabbix agent is not available (for 3m):
發生這個原因通常就字面上就是 Agent 已經過三分鐘沒有啟動了,不過就我們在使用 Agent 的經驗是很穩定的,不會沒事就掛了,所以這個警報一響就意味著主機已經關機了,這樣就要開始查原因了。另外一件事就是其實算是人為失誤,在裝 Agent 的時候沒有設定開機啟動,也沒有自動啟動 (PS. 其實機器一多最好還是設上開機啟動)。
注意喔! 如果沒有確認 Agent 已連線就想 close 掉,沒有解決還是會持續跳出喔,除非把該項取消監控。
再來是 Zabbix server has been restarted (uptime < 10m):
這個比上一個還恐怖,原因是這樣的,我們的主機目前都虛擬化了,所以只要是跳電連 Zabbix Server 都會隨著關機,復電的時候有設定復電啟動,所以第一個通知就會是 has been restarted 了,當我們收到通知時就會知道剛機房斷電了 QQ ,目前還在努力找 UPS 資源中~
最近兩次跳警報的原因是 2021/05/13 全臺分組限電,所以就立馬提前關機。另一次是學校會定期針對高壓電檢修,也是提前關機。
最後 MySQL: Service is down、HTTP service is down :
這就是針對服務監控了,目前遇到的原因就是開機忘了設定開機啟動,或是維運人員調整參數需要重新啟動 XD。
內容如有介紹不周的地方,再麻煩大家提點,感激不盡。
同步發表 行雲部落格 再麻煩大家多多指教 謝謝
行雲者研發基地官網 粉絲專頁